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Another known speech recognition method is based on patterns formed 
of speech signals and their comparison. Patterns formed of command 
words are stored beforehand, or the user may have taught desired 
words which have been formed into patterns and stored. The speech 

5 recognition device compares the stored patterns with feature vectors 
formed of sounds uttered by the user during the utterance and calcu- 
lates the probability for the different words (command words) in the 
vocabulary of the speech recognition device. When the probability for a 
command word exceeds a predetermined value, the speech recognition 

10 device selects this command word as the recognition result. Thus, in- 
correct recognition results may occur particularly in the case of words in 
which the beginning resembles phonetically another word in the 
vocabulary. For example, the user has taught the speech recognition 
device the words "Mari" and "Marika". When the user is saying the word 

15 "Marika", the speech recognition device may make "Mari" as the rec- 
ognition decision, even though the user may not yet have had time to 
articulate the end of the word. Such speech recognition devices typi- 
cally use the so-called Hidden Markov Model (HMM) speech recogni- 
tion method. 

20 

U.S. patent 4,870,686 presents a speech recognition method and a 
speech recognition device, in which the determination of the end of 
words by the user is based on silence; in other words, the speech re- 
cognition device examines if there is a perceivable audio signal or not. 
25 A problem in this solution is the fact that a too loud background noise 
may prevent the detection of pauses, wherein the speech recognition is 
not successful. 

It is an aim of the present invention to provide an improved method for 
30 detecting pauses in speech and a speech recognition device. The in- 
vention is based on the idea that a tone band to be examined is divided 
into sub-bands, and the power of the signal is examined in each sub- 
band. If the power of the signal is below a certain limit in a sufficient 
number of sub-bands for a sufficiently long time, it is deduced that there 
35 is a pause in the speech. The method of the present invention is char- 
acterized in what will be presented in the characterizing part of the ap- 
pended claim 1 . The speech recognition device according to the 
present invention is characterized in what will be presented in the char- 
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acterizing part of the appended claim 8. The wireless communication 
device of the present invention is characterized in what will be pre- 
sented in the characterizing part of the appended claim 1 1 . 

5 The present invention gives significant advantages to the solutions of 
prior art. By the method of the invention, a more reliable detection of a 
gap between words can be obtained than by methods of prior art. Thus, 
the reliability of the speech recognition is improved and the number of 
incorrect and failed recognitions is reduced. Furthermore, the speech 

10 recognition device is more flexible with respect to manners of speaking 
by different users, because the speech commands can be uttered more 
slowly or faster without an inconvenient delay in the recognition or 
recognition taking place before an utterance has been completed. 

15 By the division into sub-bands according to the invention, it is possible 
to reduce the effect of external interference. Spurious signals e.g. in a 
car have typically a relatively low frequency. In solutions of prior art, the 
energy contained in the whole frequency range of the signal is utilized 
in the recognition, wherein signals which are strong but have a narrow 

20 band width reduce the signal-to-noise ratio to a significant degree. 
Instead, if the frequency range to be examined is divided into sub- 
bands according to the invention, the signal-to-noise ratio can be im- 
proved significantly in such sub-bands in which the proportion of spuri- 
ous signals is relatively small, which improves the reliability of the rec- 

25 ognition. 

In the following, the present invention will be described in more detail 
with reference to the appended drawings, in which 

30 Fig. 1 is a flow chart illustrating the method according to an advan- 
tageous embodiment of the invention, 

Fig. 2 is a reduced flow chart showing the speech recognition 
device according to an advantageous embodiment of the 
35 invention, 



Fig. 3 is a state machine chart illustrating rank-order filtering to be 
applied in the method according to an advantageous 
embodiment of the invention, and 

Fig. 4 is a flow chart illustrating the logic for deducing a pause to 
be applied in the method according to an advantageous 
embodiment of the invention. 

The following is a description on the function of the method according 
to an advantageous embodiment of the invention, with reference to the 
flow chart of Fig. 1 and using as an example a speech-controlled wire- 
less communication device MS according to the flow chart of Fig. 2. In 
the speech recognition, an acoustic signal (speech) is converted, in a 
way known as such, into an electrical signal by a microphone, such as 
a microphone 1a in the wireless communication device MS or a micro- 
phone 1b in a hands-free facility 2. The frequency response of the 
speech signal is typically limited to the frequency range below 1 0 kHz, 
e.g. in the frequency range from 100 Hz to 10 kHz. However, the fre- 
quency response of speech is not constant in the whole frequency 
range, but there are more lower frequencies than higher frequencies. 
Furthermore, the frequency response of speech is different for different 
persons. In the method of the invention, the frequency range to be 
examined is divided into narrower sub-frequency ranges (M number of 
sub-bands). This is represented by block 101 in the appended Fig. 1. 
These sub-frequency ranges are not made equal in width but taking 
into account the characteristic features of the speech, wherein some of 
the sub-frequency ranges are narrower and some are wider. At the low 
frequencies characteristic of speech, the division is denser, i.e. the sub- 
frequency ranges are narrower than for the higher frequencies, which 
frequencies are more rare in speech. This idea is also applied in the 
Mel frequency scale, known as such, in which the width of frequency 
bands is based on the logarithmic function of frequency. 

In connection with the division into sub-bands, the signals of the sub- 
bands are converted to a smaller sample frequency, e.g. by under- 
sampling or by low-pass filtering. Thus, samples are transferred from 
the block 101 to further processing at this lower sampling frequency. 
This sampling frequency is advantageously ca. 1 00 Hz, but it is obvious 




that also other sampling frequencies can be applied within the scope of 
the present invention. These samples are converted into said feature 
vectors. 

5 A signal formed in the microphone 1a, 1b is amplified in an amplifier 3a, 
3b and converted into digital form in an analog-to-digital converter 4. 
The precision of the analog-to-digital conversion is typically in the range 
from 12 to 32 bits, and in the conversion of a speech signal, samples 
are taken advantageously 8'000 to 14'000 times a second, but the 

10 invention can also be applied at other sampling rates. In the wireless 
communication device MS of Fig. 2, the sampling is arranged to be 
controlled by a controller 5. The audio signal in digital form is trans- 
ferred to a speech recognition device 16 which is in a functional con- 
nection with the wireless communication device 16 and in which differ- 

15 ent stages of the method according to the invention are processed. The 
transfer takes place e.g. via interface blocks 6a, 6b and an interface 
bus 7. In practical solutions the speech recognition device 16 can as 
well be arranged in the wireless communication device 1 6 itself or in 
another speech-controlled device, or as a separate auxiliary device or 

20 the like. 

The division into sub-bands is made preferably in a first filter block 8, to 
which the signal converted into digital form is conveyed. This first filter 
block 8 consists of several band-pass filters which are in this advanta- 

25 geous embodiment implemented with digital technique and whose fre- 
quency ranges and band widths of the pass band differ from each 
other. Thus each band filtered part of the original signal passes the 
respective band-pass filter. For clarity, these band-pass filters are not 
shown separately in Fig. 2. These band-pass filters are implemented 

30 advantageously in the application software of a digital signal processor 
(DSP) 13, which is known as such. 

At the next stage 102, the number of sub-bands is reduced preferably 
by decimating in a decimating block 9, wherein L number of sub-bands 
35 are formed (L < M), their energy levels being measurable. On the basis 
of the signal power levels of these sub-frequency ranges, it is possible 
to determine the signal energy in each sub-band. Also, the decimating 
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block 9 can be implemented in the application software of the digital 
signal processor 13. 

An advantage obtained by the division into M sub-bands according to 
5 the block 1 is that the values of these M different sub-bands can be 
utilized in the recognition to verify the recognition result particularly in 
an application using coefficients according to the Mel frequency scale. 
However, the block 101 can also be implemented by forming directly L 
sub-bands, wherein the block 102 will not be necessary. 

10 

A second filter block 10 is provided for low pass filtering of signals of 
the sub-bands formed at the decimating stage (stage 103 in Fig. 1), 
wherein short changes in the signal strength are filtered off and they 
cannot have a significant effect in the determination of the energy level 

15 of the signal in further processing. After the filtration, a logarithmic 
function of the energy level of each sub-band is calculated in block 1 1 
(stage 104) and the calculation results are stored for further processing 
in sub-band specific buffers formed in memory means 14 (not shown). 
These buffers are advantageously of the so-called FIFO type (First In - 

20 First Out), in which the calculation results are stored as figures of e.g. 8 
or 16 bits. Each buffer accommodates N calculation results. The value 
N depends on the application in question. Thus, the calculation results 
p(t) stored in the buffer represent the filtered, logarithmic energy level 
of the sub-band at different measuring instants. 

25 

An arrangement block 12 performs so-called rank order filtering for the 
calculation results (stage 105), in which the mutual rank of the different 
calculation results are compared. At this stage 105, it is examined in 
the sub-bands whether there is possibly a pause in the speech. This 

30 examination is shown in a state machine chart in Fig. 3. The operations 
of this state machine are implemented substantially in the same way for 
each sub-band. The different functional states SO, S1 , S2, S3 and S4 
of the state machine are illustrated with circles. Inside these state 
circles are marked the operations to be performed in each functional 

35 state. The arrows 301 , 302, 303, 304 and 305 illustrate the transitions 
from one functional state to another. In connection with these arrows 
are marked the criteria, whose realization will set off this transition. The 
curves 306, 307 and 308 illustrate the situation in which the functional 
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state is not changed. Also these curves are provided with the criteria for 
maintaining the functional state. 

In the functional states S1 , S2 and S3, a function f() is shown, which 
5 represents the performing of the following operations in said functional 
states: preferably N calculation results p(t) are stored in the buffer, and 
the lowest maximum value p_min(t) and the highest minimum value 
p_min(t) are determined advantageously by the following formulae: 

10 p_min(t) = min[max(p(i-N + l),p(i-N + 2),...,p(i))], i = N,N + l,...,t 
p_ max(t) = max[min(p(i -N + l), p(i - N + 2),..., p(i))] , i = N, N + l,...,t 

Consequently, in the function f(t), the maximum value p_max(t) 
searched is the highest minimum value and the minimum value 

15 p_min(t) is the lowest maximum value of the calculation results p(i) 
stored in the different sub-band buffers. After this, the median power 
P (t) m is calculated, which is the median value of the calculation results 
p(t) stored in the buffer, and a threshold value thr by the formula 
thr = p_min + k (p_max-p_min), in which 0<k<1. Next, in the func- 

20 tion f(), a comparison is made between the median power p(t) n and the 
threshold value calculated above. The result of the calculation will set 
off different operations depending on the functional state in which the 
state machine is at a given time. This will be described in more detail 
hereinbelow in connection with the description of the different functional 

25 states. 

After storing a group of sub-band specific calculation results p(t) of the 
speech (N results per sub-band), the speech recognition device will 
move on to execute said state machine, which is implemented in the 

30 application software of either the digital signal processor 13 or the con- 
troller 5. The timing can be made in a way known as such, preferably 
with an oscillator, such as a crystal oscillator (not shown). The execut- 
ing is started from the state SO, in which the variables to be used in the 
state machine are set in their initial values (init()): a pause counter C is 

35 set to zero, the power minimum p_min at the starting moment t = 1 
(p_min(t = 1)) is set to the theoretical value of °°, in practice to the high- 
est possible numerical value available in the speech recognition device. 
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This maximum value is influenced by the number of bits these power 
values are calculated with. Correspondingly, the power maximum 
p_max at the starting moment t = 1 (p_max (t = 1)) is set to the theo- 
retical value of -oo, in practice to the lowest possible numerical value 
available in the speech recognition device. 

After setting of the initial values, the function moves on to the state S1 , 
in which the operations of said function f() are performed, wherein e.g. 
the power minimum p_min and the power maximum p_max as well as 
the median power p(t) m are calculated. In the functional state S1 , also 
the pause counter C is increased by one. This functional state prevails 
until the expiry of a predetermined initial delay. This is determined by 
comparing the pause counter C with a predetermined beginning value 
BEG. At the stage when the pause counter C has reached the begin- 
ning value BEG, the operation moves on to state S2. 

In the functional state S2, the pause counter C is set to zero and the 
operations of the function f() are performed, such as storing of the new 
calculation result p(t), and calculation of the power minimum p_min, the 
power maximum p_max as well as the median power p(t) m and the 
threshold value thr. The calculated threshold value and the median 
power are compared with each other, and if the median power is 
smaller than the threshold value, the operation moves on to state S3; in 
other cases, the functional state is not changed but the above-pre- 
sented operations of this functional state S2 are performed again. 

In the functional state S3, the pause counter C is increased by one and 
the function f() is performed. If the calculation indicates that the median 
power is still smaller than the threshold value, the value of the pause 
counter C is examined to find out if the median power has been below 
the power threshold value for a certain time. Expiry of this time limit can 
be found out by comparing the value of the pause counter C with an 
utterance time limit END. If the value of the counter is greater than or 
equal to said expiry time limit END, this means that no speech can be 
detected on said sub-band, wherein the state machine is exited. 

However, if the comparison of the threshold value and the median 
power in the functional state S3 showed that the median power ex- 
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ceeded the power threshold value, it can be deduced that speech is 
detected on this sub-band, and the state machine returns to the func- 
tional state S2, in which e.g. the pause counter C is reset and the 
calculation is started from the beginning. 

5 

Consequently, the operation of a state machine to be used in the 
method according to an advantageous embodiment of the invention 
was described above in a general manner. In a speech recognition 
device according to the invention, the above-presented functional 
10 stages are performed separately for each sub-band. 

Sampling a speech signal is performed advantageously at intervals, 
wherein the stages 101—104 are performed after the calculation of 
each feature vector, preferably at intervals of ca. 10 ms. Correspond- 

15 ingly, in the state machine of each sub-band, the operations according 
to the each active functional state are performed once (one calculation 
time), e.g. in state S3 the pause counter C(s) of the sub-band in ques- 
tion is increased, the function f(s) is performed, wherein e.g. a compari- 
son is made between the median power and the threshold value, and 

20 on the basis of the same, the functional state is either retained or 
changed. 

After one calculating round has been performed for the state machines 
of all the sub-bands, the operation moves on to stage 106 in the 

25 speech recognition, wherein it is examined on the basis of the 
information received from the different sub-bands whether a sufficiently 
long pause has been detected in the speech. This stage 106 is 
illustrated as a flow chart in the appended Fig. 4. For clarifying the 
examination, some comparison values are determined, which are given 

30 initial values preferably in connection with the manufacture of the 
speech recognition device, but if necessary, these initial values can be 
changed according to the application in question and the usage 
conditions. The setting of these initial values is illustrated with 
block 401 in the flow chart of Fig. 4: 

35 activity threshold SB_ACTIVE_TH whose value is greater than 

zero but smaller than the detection time limit END, 
— detection quantity SB_SUFF_TH whose value is greater than zero 
but smaller than or equal to the number L of sub-bands, 
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minimum number SB_MIN_TH of sub-bands whose value is 

greater than zero but smaller than the detection quantity 
SB_SUFF_TH. 

In the method according to the invention, to detect a pause in speech it 
is examined, on how many sub-bands the energy level has possibly 
remained below said power threshold value and for how long. As dis- 
closed in the functional description of the state machine above, the 
pause counter C indicates how long the audio energy level has re- 
mained below the power threshold value. Thus, the value of the counter 
is examined for each sub-band. If the value of the counter is greater 
than or equal to the detection time limit END (block 402), this means 
that the energy level of the sub-band has remained below the power 
threshold value so long that a decision on detecting a pause can be 
made for this sub-band, i.e. a sub-band specific detection is made. 
Thus, the detection counter SB_DET_NO is preferably increased by 
one. 

If the value of the counter is greater than or equal to the activity 
threshold SB_ACTIVE_TH (block 404), the energy level on this sub- 
band has been below the power threshold value thr for a moment but 
not yet a time corresponding to the detection time limit END. Thus, the 
activity counter SB_ACT_NO in block 405 is increased preferably by 
one. In other cases, there is either an audio signal on the sub-band, or 
the level of the audio signal has been below the power threshold value 
thr for only a short time. 

Next, the operation moves on to block 406, in which the sub-band 
counter i used as an auxiliary variable is increased by one. On the ba- 
sis of the value of this sub-band counter i, it can be deduced if all the 
sub-bands have been examined (block 407). 

When the comparisons to the said pause counters have been made, it 
is examined, on how many sub-bands a pause was detected (the pause 
counter was greater than or equal to the detection time limit END). If 
the number of such sub-bands is greater than or equal to the detection 
quantity SB_SUFF_TH (block 408), it is deduced in the method that 
there is a pause in the speech (pause detection decision, block 409), 
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and it is possible to move on to the actual speech recognition to find out 
what the user uttered. However, if the number of sub-bands is smaller 
than the detection quantity SB_SUFF_TH, it is examined, if the number 
of sub-bands including a pause is greater than or equal to the minimum 
number of sub-bands SB_MIN_TH (block 410). Furthermore, it is exam- 
ined in block 41 1 if any of the sub-bands is active (the pause counter 
was greater than or equal to the activity threshold SB_ACTIVE_TH but 
smaller than the detection time limit END). In the method according to 
the invention, a decision is made in this situation that there is a pause 
in the speech if none of the sub-bands is active. 

In a noise situation, noise on some sub-bands may effect that a detec- 
tion decision cannot be made on all sub-bands even though there were 
a pause in the speech that should be detected. Thus, by means of said 
sub-band minimum SB_MIN_TH, it is possible to verify the detection of 
a pause in the speech particularly under noise conditions. Thus, in a 
noise situation, if a pause is detected on at least said minimum number 
SB_MIN_TH of sub-bands, a pause is detected in the speech if the 
pause detection decision on these sub-bands remains in force for the 
duration of said detection time limit END. 

Correspondingly, under good conditions, using said detection time limit 
END may prevent a too quick decision on detecting a pause. Under 
good conditions, the said minimum number of sub-bands can quickly 
cause a pause detection decision, even though there is no such pause 
in the speech to be detected. By waiting the detection time limit for 
substantially all of the sub-bands, it is verified that there is actually a 
pause in the speech. 

In another advantageous embodiment of the invention, it is not exam- 
ined before making the decision of detecting a pause whether any of 
the sub-bands is active. Thus, the decision on detecting a pause is 
made on the basis of the results of the comparisons presented above. 

The operations presented above can be implemented advantageously 
e.g. in the application software of the controller or digital signal proces- 
sor of the speech recognition device. 
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The above-presented method for detecting a pause in speech accord- 
ing to the advantageous embodiment of the invention can be applied at 
the stage of teaching a speech recognition device as well as at the 
stage of speech recognition. At the teaching stage, the disturbance 
conditions can be usually kept relatively constant. However, when a 
speech-controlled device is used, the quantity of background noise and 
other interference can vary to a great extent. For improving the reliabil- 
ity of speech recognition particularly under varying conditions, the 
method according to another advantageous embodiment of the inven- 
tion is supplemented with adaptivity to the calculation of the threshold 
value thr. For achieving this adaptivity, a modification coefficient 
UPDATE_C is used, whose value is preferably greater than zero and 
smaller than one. The modification coefficient is first given an initial 
value within said value range. This modification coefficient is updated 
during speech recognition preferably in the following way. On the basis 
of the samples of the sub-bands stored in the buffers, a maximum 
power level win_max and a minimum power level win_min are 
calculated. After this, said calculated maximum power level win_max is 
compared with the power maximum p_max at the time, and said 
calculated minimum power level win_min is compared with the power 
minimum p_min. If the absolute value of the difference between the 
calculated maximum power level win_max and the power maximum 
p_max, or the absolute value of the difference between the calculated 
minimum power level win_min and the power minimum p_min has 
increased from the previous calculation time, the modification 
coefficient UPDATE_C is increased. On the other hand, if the absolute 
value of the difference between the calculated maximum power level 
win_max and the power maximum p_max, or the absolute value of the 
difference between the calculated minimum power level win_min and 
the power minimum p_min has decreased from the previous calculation 
time, the modification coefficient UPDATE_C is reduced. After this, a 
new power maximum and a new power minimum are calculated as 
follows: 

p_min(t) = (l-UPDATE_C)p_min(t-l) + (UPDATE_Cwin_min) 
p_max(t) = (1 - UPDATE_ C) p_max(t-l) + (UPDATE. C win_ max) 
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The calculated new power maximum and minimum values are used at 
the next sampling round e.g. in connection with the performing of the 
function f(). The determination of this adaptive coefficient has e.g. the 
advantage that changes in the environmental conditions can be better 
taken into account in the speech recognition and the detection of a 
pause becomes more reliable. 

The above-presented different operations for detecting a pause in the 
speech can be largely implemented in the application software of the 
controller and/or the digital signal processor of the speech recognition 
device. In the speech recognition device according to the invention, 
some of the functions, such as the division into sub-bands, can also be 
implemented with analog technique, which is known as such. In con- 
nection with the execution of the method, in the storing of the calcula- 
tion results to be made at different stages, the variables, etc., it is pos- 
sible to use the memory means 14 of the speech recognition device, 
preferably a random access memory (RAM), a non-volatile random ac- 
cess memory (NVRAM), a FLASH memory, etc. The memory means 22 
of the wireless communication device can as well be used for storing 
information. 

Fig. 2, showing a the wireless communication device MS according to 
an advantageous embodiment of the invention, additionally shows a 
keypad 17, a display 18, a digital-to-analog converter 19, a headphone 
amplifier 20a, a headphone 21 , a headphone amplifier 20b for a hands- 
free function 2, a headphone 21b, and a high-frequency block 23, all 
known per se. 

The present invention can be applied in connection with several speech 
recognition systems functioning by different principles. The invention 
improves the reliability of detection of pauses in speech, which ensures 
the recognition reliability of the actual speech recognition. Using the 
method according to the invention, it is not necessary to perform the 
speech recognition in connection with a fixed time window, wherein the 
recognition delay is substantially not dependent on the rate at which the 
user utters speech commands. Also, the effect of background noise on 
speech recognition can be made smaller upon applying the method of 
the invention than is possible in speech recognition devices of prior art. 
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It is obvious that the invention is not limited solely to the embodiments 
presented above, but it can be modified within the scope of the ap- 
pended claims. 
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Claims : 

1. A method for detecting pauses in speech in speech recognition, in 
which method, for recognizing speech commands uttered by the user, 
the voice is converted into an electrical signal, characterized in that in 
the method, the frequency spectrum of the electrical signal is divided 
into two or more sub-bands, samples of the signals in the sub-bands 
are stored at intervals, the energy levels of the sub-bands are deter- 
mined on the basis of the stored samples, a power threshold value (thr) 
is determined, and the energy levels of the sub-bands are compared 
with said power threshold value (thr), wherein the comparison results 
are used for producing a pause detecting result. 

2. The method according to claim 1 , characterized in that a detection 
time limit (END) and a detection quantity (SB_SUFF_TH) are de- 
termined, wherein in the method, the calculation of the length of a 
pause in a sub-band is started when the energy level of the sub-band 
falls below said power threshold value (thr), wherein in the method, a 
sub-band specific detection is performed when the calculation reaches 
the detection time limit (END), it is examined on how many sub-bands 
the energy level was below the power threshold value (thr) longer than 
the time detection limit (END), wherein a pause detection decision is 
made if the number of sub-band specific detections is greater than or 
equal to the detection quantity (SB_SUFF_TH). 

3. The method according to claim 2, characterized in that in the 
method, also an activity time limit (SB_ACTIVE_TH) and an activity 
quantity (SB_MIN_TH) are determined, wherein a pause detection de- 
cision is made if the quantity of sub-band specific detections is greater 
than or equal to the activity quantity (SB_MIN_TH) and the activity time 
limit (SB_ACTIVE_TH) has not been reached on the other sub-bands in 
the calculation of the length of the pause in the sub-band. 

4. The method according to claim 1 , 2 or 3, characterized in that the 
power threshold value (thr) is calculated by the formula 

thr = p_min + k (p_max- p_min), in which 
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the smallest power maximum determined of the stored 
samples of the sub-bands, and 

the greatest power minimum determined of the stored 
samples of the sub-bands. 

5. The method according to any of the claims 1 to 4, characterized in 
that said power threshold value (thr) is calculated adaptively by taking 
into account the environmental noise level at each instant. 

6. The method according to claim 5, characterized in that for calcu- 
lating said power threshold value (thr), a modification coefficient 
(UPDATE_C) is determined, and on the basis of the stored samples, 
the greatest power level (win_max) and the smallest power level 
(win_min) of the sub-bands are calculated, wherein the power maxi- 
mum (p_max) and power minimum (p_min) are determined by the for- 
mulae: 

p_max(i,t) = (l-UPDATE_C)p_max(i,t-l) + (UPDATE_Cwin_max) 
p_min(i,t) = (l-UPDATE_C)p_min(i,t-l) + (UPDATE_Cwin_min) 

in which 0 < UPDATE_C < 1 , 
0 < i < L, and 

L is the number of sub-bands. 

7. The method according to claim 6, characterized in that further in 
the method, 

— the modification coefficient (UPDATE_C) is increased, if the 
absolute value of the difference between said calculated highest 
power level (win_max) and the power maximum (p_max), or the 
absolute value of the difference between said calculated lowest 
power level (win_min) and the power minimum (p_min) has 
increased, 

— the modification coefficient (UPDATE_C) is reduced, if the 
absolute value of the difference between said calculated highest 
power level (win_max) and the power maximum (p_max), or the 
absolute value of the difference between said calculated lowest 
power level (win_min) and the power minimum (p_min) has 
decreased. 



p_min = 
p_max = 
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8. A speech recognition device (16) comprising means (1a, 1b) for 
converting speech commands uttered by a user into an electrical signal, 
characterized in that it also comprises: 

means (8) for dividing the frequency spectrum of the electrical sig- 
nal into two or more sub-bands, 

means (14) for storing samples of the signals of the sub-bands at 

intervals, 

— means (5, 13) for determining energy levels of the sub-bands on 
the basis of the stored samples, 

means (5, 1 3) for determining a power threshold value (thr), 

means (5, 13) for comparing the energy levels of the sub-bands 

with said power threshold value (thr), and 

— means (5, 13) for detecting a pause in the speech on the basis of 
said comparison results. 

9. The speech recognition device (16) according to claim 8, charac- 
terized in that the power threshold value is calculated by the formula 

thr = p_min + k (p_max- p_min), in which 

p_min= the smallest determined power maximum of the stored 

samples of the sub-bands, and 
p_max= the greatest determined power minimum of the stored 

samples of the sub-bands. 

10. The speech recognition device (16) according to claim 8 or 9, 
characterized in that it comprises also means (10, 11) for filtering the 
signals of the sub-bands before storage. 

11. A wireless communication device (MS) comprising means (16) for 
recognizing speech and means (1a, 1b) for converting speech com- 
mands uttered by a user into an electrical signal, characterized in that 
the means (16) for recognizing speech comprise also: 

means (8) for dividing the frequency spectrum of the electrical sig- 
nal into two or more sub-bands, 

means (14) for storing samples of the signals of the sub-bands at 

intervals, 
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means (5, 13) for determining energy levels of the sub-bands on 
the basis of the stored samples, 

means (5, 13) for determining a power threshold value (thr), 
means (5, 13) for comparing the energy levels of the sub-bands 
with said power threshold value (thr), and 

means (5, 13) for detecting a pause in the speech on the basis of 
said comparison results. 
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Abstract 

In a method for detecting pauses in speech in speech 
recognition, for recognizing speech commands uttered 
by the user, the voice is converted into an electrical 
signal, whose frequency spectrum is divided into two or 
more sub-bands. Samples of the signals on the sub- 
bands are stored at intervals, the energy levels of the 
sub-bands are determined on the basis of the stored 
samples, a power threshold value (thr) is determined, 
and the energy levels of the sub-bands are compared 
with said power threshold value (thr). The comparison 
results are used for producing a pause detecting result. 

Fig. 1 
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Menetelma puheentunnistuksessa ja puheentunnistuslaite 



Nyt esilla oleva keksinto kohdistuu oheisen patenttivaatimuksen 1 joh- 
5 danto-osan mukaiseen menetelmaan puheentunnistuksessa, oheisen 
patenttivaatimuksen 8 johdanto-osan mukaiseen puheentunnistuslait- 
teeseen ja oheisen patenttivaatimuksen 11 johdanto-osan mukaiseen 
puheella ohjattavaan langattomaan viestimeen. 

10 Langattomien viestimien kayton heipottamiseksi on kehitetty puheen- 
tunnistuslaitteita, joiden avulla kayttaja voi lausua puhekomentoja, jotka 
puheentunnistuslaite pyrkii tunnistamaan ja muuntamaan puhekomen- 
toa vastaavaksi toiminnoksi, esim. puhelinnumeron valintakomennoksi. 
Hankaluutena puheohjauksen toteuttamisessa on mm. se, etta eri 

15 kayttajat lausuvat puhekomennot eri tavalla: puhenopeus voi olla erilai- 
nen eri kayttajilla, samoin puheen voimakkuus, aanen savy jne. Lisaksi 
puheentunnistusta hairitsee mahdoilinen taustamelu, jonka hairitsevyys 
ulkona ja autossa voi olla huomattavaa. Taustamelu vaikeuttaa sanojen 
tunnistusta seka eri sanojen erottamista toisistaan esim. puhelinnume- 

20 roa lausuttaessa. 

Joissakin puheentunnistuslaitteissa on kaytetty kiinteaan aika-ikkunaan 
perustuvaa tunnistusmenetelmaa. Talloin kayttajalla on ennalta maa- 
ratty aika, jonka kuluessa hanen on lausuttava haluamansa komento- 

25 sana. Aika-ikkunan kuluttua umpeen puheentunnistuslaite pyrkii selvit- 
tamaan, minka sanan/komennon kayttaja lausui. Tallaiseen kiinteaan 
aika-ikkunaan perustuvassa menetelmassa on kuitenkin mm. se epa- 
kohta, etta kaikki lausuttavat sanat eivat ole yhta pitkia, esim. nimien 
kohdalla etunimi on usein selvasti lyhyempi kuin sukunimi. Talloin lyhy- 

30 emman sanan jalkeen kuiuu enemman aikaa tunnistukseen kuin pi- 
demman sanan tunnistuksessa. Tama on epamiellyttavaa kayttajan 
kannalta. Lisaksi aika-ikkuna on asetettava hitaampien puhujien mu- 
kaan, ettei tunnistusta aloiteta, ennen kuin koko sana on lausuttu. No- 
peammin sanoja lausuttaessa viive lausumisen ja tunnistuksen valilla 

35 lisaa epamiellyttavyyden tunnetta. 

Toinen tunnettu puheentunnistusmenetelma perustuu puhesignaaleista 
muodostettuihin malleihin ja niiden vertailuun. Komentosanoista muo- 
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dostetut mallit on etukateen tallennettu tai kayttaja on voinut opettaa 
haluamiaan sanoja, joista on muodostettu ja tallennettu mallit. Puheen- 
tunnistuslaite vertallee tallennettuja malleja kayttajan lausumista aan- 
teista muodostettuihin piirrevektoreihin sanojen lausumisen aikana ja 
5 laskee todennakdisyyksia puheentunnistuslaitteen sanaston eri sanoille 
(komentosanoille). Todennakoisyyden ylittaessa jollakin komentosanal- 
la ennalta asetetun arvon, puheentunnistuslaite valitsee taman komen- 
tosanan tunnistustulokseksi. Talloin voi virheellisia tunnistustuloksia 
syntya erityisesti sellaisten sanojen kohdalla, joissa sanan alku muistut- 

10 taa aanteellisesti jotakin muuta sanastoon kuuluvaa Sanaa. Esimerkiksi 
kayttaja on opettanut puheentunnistuslaitteelle sanat "Man" ja "Marika". 
Jos kayttaja lausuu sanaa "Marika", saattaa puheentunnistuslaite tehda 
tunnistuspaatokseksi "Mari", vaikka kayttaja ei olisi ehtinyt lausua viela 
sanan loppua. Tallaisissa puheentunnistuslaitteissa kaytetaan usein ns. 

15 Hidden-Markov-Model -puheentunnistusmenetelmaa (HMM). 

Patentissa US-4,870,686 on esitetty puheentunnistusmenetelma ja pu- 
heentunnistuslaite, jossa kayttajan sanojen lopun ilmaiseminen perus- 
tuu hiljaisuuteen, siis puheentunnistuslaite tutkii, onko aanisignaalia 
20 havaittavissa vai ei. Ongelmana tassa ratkaisussa on se, etta liian voi- 
makas taustamelu voi estaa taukojen havaitsemisen, jolloin puheen- 
tunnistus ei onnistu. 

Nyt esilla olevan keksinnon eraana tarkoituksena on aikaansaada pa- 
25 rannettu menetelma puheessa olevien taukojen havaitsemiseksi ja pu- 
heentunnistuslaite. Keksinto perustuu siihen ajatukseen. etta jaetaan 
tutkittava aanikaista alikaistoihin ja tutkitaan signaalin tehoa kullakin 
alikaistalla. MikaJi riirtavan usealla alikaistalla signaalin teho alittaa tie- 
tyn rajan riittavan pitkan ajan, tehdaan paatelma siita, etta puheessa on 
30 tauko. Nyt esilla olevan keksinnon mukaiselle menetelmalle on tunnus- 
omaista se, mita on esitetty oheisen patenttivaatimuksen 1 tunnus- 
merkkiosassa. Nyt esilla olevan keksinnon mukaiselle puheentunnistus- 
laitteelle on tunnusomaista se, mita on esitetty oheisen patenttivaati- 
muksen 8 tunnusmerkkiosassa. Nyt esilla olevan keksinnon mukaiselle 
35 langattomalle viestimelle on tunnusomaista se, mita on esitetty oheisen 
patenttivaatimuksen 11 tunnusmerkkiosassa. 
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Nyt esilla olevalla keksinnolla saavutetaan merkittavia etuja tunnetun 
tekniikan mukaisiin ratkaisuihin verrattuna. Keksinnon mukaisella me- 
netelmalla saadaan luotettavampi sanavalin ilmaisu kuin tunnetun tek- 
niikan mukaisilla menetelmilla. Talloin puheentunnistuksen luotettavuus 
paranee ja virheellisten tunnistusten ja epaonnistuneiden tunnistusten 
maara pienenee. Lisaksi puheentunnistuslaite on joustavampi erilaisten 
kayttajien puhetottumusten suhteen, koska puhekomennot voidaan lau- 
sua hitaammin tai nopeammin ilman, etta tunnistuksessa on epamiellyt- 
tavaa viivetta tai etta tunnistus tapahtuisi kesken sanan lausumisen. 



Keksinnon mukaisella alikaistoihin jakamisella saadaan ulkoisten hairi- 
oiden vaikutusta pienennettya. Tyypillisesti hairiosignaalit esim. autossa 
ovat suhteellisen matalataajuisia. Tunnetun tekniikan mukaisissa rat- 
kaisuissa koko kasiteltavan signaalin taajuusalueen sisaltamaa ener- 

15 giaa kaytetaan tunnistuksessa hyvaksi, jolloin voimakkaat mutta kapea- 
kaistaiset signaalit heikentavat signaali-kohinasuhdetta merkittavasti. 
Sen sijaan jaettaessa tutkittava taajuusalue keksinnon mukaisesti ali- 
kaistoihin, saadaan sellaisilla alikaistoilla, joilla hairitsevien signaalien 
osuus on suhteellisen pieni, signaali-kohinasuhdetta parannettua mer- 

20 kittavasti, mika parantaa tunnistusvarmuutta. 

Nyt esilla olevaa keksintoa selostetaan seuraavassa tarkemmin viitaten 
samalla oheisiin piirustuksiin, joissa 

25 kuva 1 esittaa vuokaaviona keksinnon eraan edullisen suoritus- 
muodon mukaista menetelmaa, 

kuva 2 esittaa keksinnon eraan edullisen suoritusmuodon mukaista 
puheentunnistuslaitetta pelkistettyna lohkokaaviona, 

30 

kuva 3 esittaa keksinnon eraan edullisen suoritusmuodon mukai- 
sessa menetelmassa sovellettavaa sijalukusuodatusta 
(rank-order filtering) tilakonekaaviona, ja 

35 kuva 4 esittaa vuokaaviona keksinnon eraan edullisen suoritus- 
muodon mukaisessa menetelmassa sovellettavaa tauon 
paattelylogiikkaa. 
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Selostetaan seuraavassa keksinnon eraan edullisen suoritusmuodon 
mukaisejn menetelman toimintaa viitaten samalla kuvan 1 vuokaavioon 
kayttaen esimerkkina kuvan 2 lohkokaavion mukaista puheella ohjatta- 
vaa lanjgatonta viestinta MS. Puheentunnistuksessa suoritetaan si- 
5 nansa tunnetusti akustisen signaalin (puheen) muuntaminen sahkbi- 
seksi signaaliksi mikrofonilla, kuten langattoman viestimen MS mikro- 
fonilla 1a tai kaiutintoiminnon 2 mikrofonilla 1b. Puhesignaalin taajuus- 
vaste rajoittuu tyypiHisesti alle 10kHz:n taajuusalueelle, esim. taajuus- 
alueelle 100 Hz— 10 kHz. Puheen taajuusvaste ei kuitenkaan ole vaklo 
koko taajuusalueella, vaan siina matalampia taajuuksia esiintyy enem- 
man kuin korkeampia taajuuksia. Lisaksi eri henkildilla puheen taajuus- 
vaste o^i erilainen. Keksinnon mukaisessa menetelmassa tutkittava 
taajuusalue jaetaan kapeampiin alitaajuusalueisiin (alikaistoihin, M kpl). 
Tata esittaa lohko 101 oheisessa kuvassa 1. Naita alitaajuusalueita ei 
tehda tasalevyisiksi, vaan puheen ominaispiirteet huomioiden, jolloin 
osa alitaajuusalueista on kapeampia ja osa on leveampia. Puheelle 
ominaisjlla, aJemmilla taajuuksilla jako on tiheampi, eli alitaajuusalueet 
ovat kapeampia, kuin puheessa harvemmin esiintyvilla, korkeammilla 
taajuuksilla. Tahan perustuu myos sinansa tunnettu mel-taajuusjako 
(Mel Frequency Scale), jossa taajuuskaistojen leveys perustuu logarit- 
miseen taajuuden funktioon. 

Alikaistoihin jakamisen yhteydessa alikaistojen signaalit muunnetaan 
pienemmalle naytetaajuudelle esim. alinaytteistamalla tai alipaastosuo- 
dattamallla. Talloin lohkosta 101 naytteita siirretaan jatkokasittelyyn talla 
alemmalla naytetaajuudella. Tama naytetaajuus on edullisesti n. 
100 Hz, mutta on selyaa, etta nyt esilla olevan keksinnon puitteissa 
myos rriuita naytetaajuuksia voidaan soveltaa. Naista naytteista muo- 
dostetaan mainittuja piirrevektoreita. 



Mikrofonissa 1a, 1b rriuodostettu signaali vahvistetaan vahvistimessa 
3a, 3b ja muunnetaan digitaaliseksi analogia-digitaalimuuntimessa 4. 
Analogia/digitaalimuurinoksen tarkkuus on tyypillisesti valilla 12—32 
bittia \d puhesignaalin muuntamisessa naytteita otetaan edullisesti 
8000— 14000 kertaa [sekunnissa, mutta keksintoa voidaan soveltaa 
myos muilJa naytteensottonopeuksilla. Kuvan 2 langattomassa viesti- 
messa MS naytteenotto on jarjestetty suoritettavaksi kontrollerin 5 oh- 
jaamana. Digitaaiisess'a muodossa oleva aanisignaali siirretaan langat- 
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toman viestimen MS kanssa toiminnallisessa yhteydessa olevaan pu- 
heentunnistuslaitteeseen 16, jossa suoritetaan keksinnon edullisen 
suoritusmuodon mukaisen menetelman eri vaiheita. Siirto suoritetaan 
esim. liityntalohkojen 6a, 6b ja liityntavaylan 7 kautta. Puheentunnistus- 
5 laite 16 voi kaytannon sovelluksissa olla toteutettuna myos itse langat- 
tomassa viestimessa MS tai muussa puheohjattavassa laitteessa, tai 
erillisena lisalaitteena tai vastaavana. 

Alikaistoihin jako tehdaan edullisesti ensimmaisessa suodatinlohkos- 
10 sa8, johon digftaaliseksi muunnettu signaali johdetaan. Tama ensim- 
mainen suodatinlohko 8 koostuu useista, tassa edullisessa suoritus- 
muodossa digitaalitekniikalla toteutetuista, kaistanpaastosuodattimista, 
joiden paastokaistan taajuusalueet seka kaistanleveydet eroavat toisis- 
taan. Talloin kunkin kaistanpaastosuodattimen lapaisee alkuperaisesta 
15 signaalista kaistanpaastosuodatettu osa. Selvyyden vuoksi ei kuvassa 
2 ole esitetty erillisina naita kaistanpaastosuodattimia. Nama kaistan- 
paastosuodattimet on toteutettu edullisesti signaalinkasittely-yksikon 13 
(DSP, Digital Signal Processor) sovellusohjelmistossa, kuten on si- 
nansa tunnettua. 

20 

Seuraavassa vaiheessa 102 vahennetaan alikaistojen lukumaaraa 
edullisesti desimoimalla desimointilohkossa 9, jolloin muodostuu L kap- 
paletta alikaistoja (L<M), joiden energiatasot ovat mitattavissa. Naiden 
alitaajuusalueiden signaalinvoimakkuuksien perusteella voidaan maarit- 
25 taa signaalin energia kuilakin alikaistalla. Myos desimointilohko 9 voi- 
daan toteuttaa digitaalisen signaalinkasittely-yksikon 13 sovellusohjel- 
mistossa. 

Etu, joka saavutetaan lohkon 1 mukaisella M alikaistaan jakamisella on 
30 se, etta naita M:n eri alikaistan arvoja voidaan kayttaa tunnistuksessa 
apuna tunnistustuloksen varmentamiseksi erityisesti sellaisessa sovel- 
luksessa, jossa kaytetaan Mel~taajuusjaon mukaisia kertoimia. Lohko 
101 voidaan kuitenkin toteuttaa myos siten, etta siina muodostetaan 
suoraan L kappaletta alikaistoja, jolloin lohkoa 102 ei tarvita. 

35 

Toisessa suodatinlohkossa 10 suoritetaan desimointivaiheessa muo- 
dostetuille alikaistojen signaaleille alipaastosuodatus (vaihe 103 ku- 
vassa 1), jolloin lyhyet signaalinvoimakkuuden muutokset suodattuvat 
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ja eivat paase vaikuttamaan merkittavasti signaalin energiatason maa- 
rittamiseen jatkossa. Suodatuksen jalkeen lasketaan lohkossa 1 1 kun- 
kin alikaistan energiatasosta logaritmifunktio (vaihe 104), jonka muo- 
dostamat laskentatulokset tallennetaan jatkokasittelya varten muistiva- 
5 lineisiin 14 muodostettuihin alikaistakohtaisiin puskureihin (ei esitetty). 
Nama puskurit ovat edullisesti ns. FlFO-tyyppisia (First In - First Out), 
joihin laskentatulokset tallennetaan esim. 8- tai 16-bittisina lukuina. Ku- 
hunkin puskuriin mahtuu N kappaletta laskentatuloksia. Arvo N riippuu 
kullolsestakin sovelluksesta. Puskuriin tallennetut laskentatulokset p(t) 
10 kuvaavat siis alikaistan suodatettua, logaritmista energiatasoa eri mit- 
tausajanhetkina. 

Jarjestelylohko 12 suorittaa laskentatuloksille ns. rank-order -suodatuk- 
sen (vaihe 105), jossa eri laskentatulosten keskinaista suuruutta vertail- 

15 laan. Tassa vaiheessa 105 tutkitaan alikaistoittain se, onko puheessa 
mahdollisesti tauko. Tama tutkiminen on esitetty tilakonekaaviona ku- 
vassa 3. Taman tilakoneen toiminnot toteutetaan olennaisesti saman- 
laisina kullekin alikaistalle. Tilakoneen eri toimlntatiloja SO, S1 , S2, S3 
ja S4 on esitetty ympyroilla. Naiden tilaympyroiden sisaan on merkitty 

20 kussakin toimintatilassa suoritettavat toimenpiteet. Nuolet 301, 302, 
303, 304 ja 305 kuvaavat siirtymisia toimintatiloista toiseen. Naideri 
nuolien yhteyteen on merkitty kriteerit, joiden toteutuminen aikaansaa 
taman siirtymisen. Kaaret 306, 307 ja 308 kuvaavat tilannetta, jossa 
toimintatilaa ei vaihdeta. Myos naiden kaarien yhteyteen on merkitty 

25 kriteerit toimintatilan sailyttamiseksi ennallaan. 

Toimintatiloissa S1. S2 ja S3 on esitetty funktio fO, joka tarkoittaa seu- 
raavien toimenpiteiden suorittamista mainituissa toimintatiloissa: las- 
kentatuloksia p(t) tallennetaan puskuriin edullisesti N kappaletta, joista 
30 etsitaan pienin maksimiarvo p_min(t) ja suurin minimiarvo pimin(t) 
edullisesti seuraavilla kaavoilla: 

p_min(t) = mir{max{p{i -N + J),p(i - N+2),.__, p(i))], i = N,M + I t ... t t 
p_max(t) = ma^min(p{i -N + ]),p(i — N +2) p(i))] , i = N,N + l t 

35 

Funktiossa f() haetaan siis maksimiarvoksi p_max(t) eri alikaistapus- 
kureihin tallennetuista laskentatuloksista p(i) suurin minimiarvo ja mi- 



) 
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nimiarvoksi p_min(t) pienin maksimjarvo. Taman jarkeen lasketaan 
mediaaniteho p{t) m , joka on mediaaniarvo puskuriin tallennetuista las- 
kentatuloksista p(t) seka kynnysarvo thr kaavalla 
inr-p_mm + k ( P _max-p^min) t jossa 0 < k < 1. Seuraavaksi funkti- 
ossa fO suontetaan mediaanitehon p( t ) m vertailu edella laskettuun kyn- 
nysarvoon. Vertailun tulos aikaansaa erilaisia toimenpiteita riippuen 
siita, missa toimintatilassa tilakone kulloinkin on. Tata kuvataan jaljem- 
pana tarkemmin eri toimintatilojen kuvauksen yhteydessa. 

Sen jalkeen kun puheesta on tallennettu joukko alikaistakohtaisia las- 
kentatuloksia p(t) (N kpl/alikaista), puheentunnistuslaite siirtyy suoritta- 
maan mamittua tilakonetta, joka on toteutettu joko digitaalisen signaa- 
I.nkas,tt e i y -yksik6n 13 tai kontrollerin 5 sovellusohjelmistossa. Ajoitus 
voidaan muodostaa sinansa tunnetusti edullisesti oskillaattorilla kuten 
kideoskillaattorilla (ei esitetty). Suoritus aloitetaan tilasta SO, jossa teh- 
daan tilakoneessa kaytettavien muuttujien asettamiset alkuarvoihin 
(.n.t()): taukolaskuri C nollataan, tehominimiarvo p_min aloitusajanhet- 
kella t=l (p_min(t=1)) asetetaan teoreettisesti arvoon «, kaytannossa 
puheentunnistuslaitteessa kaytettavissa olevaksi suurimmaksi mahdol- 
20 hseks, lukuarvoksi. Tahan maksimiarvoon vaikuttaa se, kuinka monella 
b.t.jla naita tehoarvoja lasketaan. Vastaavasti tehomaksimiarvo p max 
aioitusajanhetkella t=1 (p„max(t=1)) asetetaan teoreettisesti arvoon — 
kaytannossa puheentunnistuslaitteessa kaytettavissa olevaksi pienim- 
maksi mahdolliseksi lukuarvoksi 

25 

Alkuarvojen asetuksen jalkeen toiminta siirtyy tilaan S1 , jossa suorite- 

?fn n m mafnitUn fUnktl ° n f ° 6de,,§ to ^npiteet, jolloin mm. teho- 

jen m.n.m«arvo p_min ja maksimiarvo p_max seka mediaaniteho P ( t ) 

lasketaan. Toimintatilassa S1 kasvatetaan lisaksi taukolaskuria C yh" 
della. Tassa toimintatilassa pysytaan, kunnes ennalta maaritetty alku- 
vnve on kulunut umpeen. Tama selvitetaan vertailemalla taukolaskuria 
C ennalta asetettuun aloitusarvoon BEG. Siina vaiheessa kun tauko- 
laskuri C on saavuttanut aloitusarvon BEG, toiminta siirtyy tilaan S2. 

Toimintatilassa S2 taukolaskuri C nollataan ja suoritetaan funktion f() 

p^ThlaS UUden ,askentatulokse n P(t) tallennus, tehominimin 
p_m.n, tehomaks,m.n P _max ja mediaanitehon P (t) m seka kynnysarvon 

thr laskenta. Laskettua kynnysarvoa ja mediaanitehoa verrataan kes- 
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kenaan ja mikali mediaaniteho on pienempi kuin kynnysarvo, siirrytaan 
toim.ntat.laan S3, muussa tapauksessa toimintatilaa ei vaihdeta vaan 
suoritetaan taman toi. nintatilan S2 edella esitetyt toimenpiteet uudel- 
leen, 

Toimintatilassa S3 kasvatetaan taukolaskuria C yhdella ja suoritetaan 
funkt.o f(). Jos vertailu osoittaa, etta mediaaniteho on edelleen pie- 
nempi kuin kynnysarvo, tutkitaan taukolaskurin C arvo sen selvittami- 
seks., onko mediaaniteho ollut tietyn ajan alle tehon kynnysarvon Ta- 
man aikarajan tayttyminen on selvitettavissa vertaamalla taukoiaskurin 
C arvoa .Ima.suaikarajaan END. Jos laskurin arvo on suurempi tai yhta- 
suur. kuin mainittu ilmaisuaikaraja END, merkitsee se sita, etta kysei- 
sella alikaistalla ei puhetta ole havaittavissa, jolloin poistutaan tilako- 
neesta. 



Jos toimintatilassa S3 kynnysarvon ja mediaanitehon vertailu kuitenkin 
osoitt., etta mediaaniteho on ylittanyt tehon kynnysarvon, voidaan tasta 
ehda paatelma, etta puhetta on talla alikaistalla havaittavissa ja tila- 
kone palautuu toimintatilaan S2, jossa mm. taukolaskuri C nollataan ja 
20 laskenta aloitetaan alusta. 

Edella oli siis kuvattu keksinnon eraan edullisen suoritusmuodon mu- 
ka.ses S a menetelmassa kaytettavan tilakoneen toimintaa yleisesti. 
Keksinnon mukaisessa puheentunnistuslaitteessa edella esitetyt toimin- 
25 tavaiheet suoritetaan kunkin alikaistan osalta erikseen. 

S!f ?n? P , U nf l9naa,ISta Suoritetaan edu, «sesti maaravalein, jolloin 
varheet 101-104 suoritetaan kunkin piirrevektorin laskennan jalkeen 

<n tTl S T n . 1 ° mS:P Val6in - Vastaavasti k ""kin alikaistan tilakoneessa 
30 suontetaan kulloinkin aktiivisena olevan toimintatilan mukaiset toi- 
menpiteet kerran (yksi laskentakierros), esim. tilassa S3 kasvatetaan 
ao al.kanavan taukolaskuria C(s), suoritetaan funktio f(s), jossa mm 
tehdaan mediaanitehon ja kynnysarvon valinen vertailu ja sen perus- 
^ teella joko sailytetaan toimintatila ennallaan tai muutetaan toimintatilaa. 

Kun kaikkien alikaistojen tilakoneiden osalta on suorrtettu yksi lasken- 
tak.erros, siirrytaan puheentunnistuksessa vaiheeseen 106, jossa tutki- 
taan en ahkaistoista saadun informaation perusteella se, onko puhees- 
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sa havaittu riittavan pitka tauko. Tata vaihetta 106 on kuvattu vuokaa- 
viona oheisessa kuvassa 4. Tutkimisen selventamiseksi maarrtetaan 
muutamia vertailuarvoja, joille annetaan alkuarvot edullisesti puheen- 
tunnistuslaitteen valmistuksen yhteydessa, mutta naita alkuarvoja voh 
5 daan tarvittaessa muuttaa kulloisenkin sovelluksen ja kayttoolosuhtei- 
den mukaan. Naiden alkuarvojen asettamista esittaa lohko 401 kuvan 4 
vuokaaviossa: 

aktiivisuuskynnys SB_ACTIVE_TH, jonka arvo on suurempi kuin 
nolla, mutta pienempi kuin ilmaisuaikaraja END; 
10 - ilmaisumaara SB_SUFF_TH, jonka arvo on suurempi kuin nolla, 
mutta pienempi tai yhtasuuri kuin alikaistojen lukumaara L, 
- alikaistojen minimimaara SB_MIN_TH, jonka arvo on suurempi 
kuin nolla, mutta pienempi kuin ilmaisumaara SB_SUFF_TH. 

15 Keksinnon mukaisessa menetelmassa puheessa olevan tauon havait- 
semiseksi tutkitaan, kuinka monella alikaistalla energiataso on mahdol- 
lisesti pysynyt mainitun tehon kynnysarvon alapuolella ja kuinka kauan. 
Kuten edella olevasta tilakoneen toimintakuvauksesta kay ilmi, tauko- 
laskuri C ilmaisee sen, kuinka pitkaan alikaistalla on aanen energiataso 

20 ollut tehon kynnysarvon alapuolella. Talloin tutkitaan kunkin alikaistan 
laskurin arvoa. Jos laskurin arvo on suurempi tai yhta suuri kuin ilmai- 
suaikaraja END (lohko 402), merkitsee se sita, etta alikaistan energia- 
taso on ollut tehon kynnysarvon alapuolella niin kauan, etta paatos 
tauon havaitsemisesta voidaan tehda taman alikaistan osalta, eli muo- 

25 dostetaan alikanavakohtalnen ilmaisu, Talloin lohkossa 403 kasvate- 
taan ilmaisulaskuria SB_DET_NO edullisesti yhdella. 

Jos laskurin arvo on suurempi tai yhta suuri kuin aktiivisuuskynnys 
SB_ACTIVE_TH (lohko 404), energiataso talla alikaistalla on ollut te- 
30 hon kynnysarvon thr alapuolella hetken, mutta ei viela ilmaisuaikarajaa 
END vastaavaa aikaa. Talloin lohkossa 405 kasvatetaan aktiivisuus- 
laskuria SB_ACT_NO edullisesti yhdella. Muussa tapauksessa alikais- 
tassa on joko aanisignaalia, tai aanisignaalin taso on ollut vain lyhyen 
ajan alle tehon kynnysarvon thr. 

35 

Seuraavaksi siirrytaan lohkoon 406, jossa apumuuttujana kaytettavaa 
alikalstalaskuria i kasvatetaan yhdella. Taman alikaistalaskurin i arvon 
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Kun verteSw mainittuihin taukolaskureihin suoritettu, tutkitaan, 
kuinka monella alikaistalla on havaittu tauko (taukolaskuri oli suurempi 
tai yhtasuuri kuin ilmaisuaikaraja END). Jos tallaisten alikaistojen luku- 
maara on suurempi tai yhtasuuri kuin ilmaisumaara SB_SUFF_TH 
(lohko 408), menetelmassa paatellaan, etta puheessa on tauko (tauon 
tunnistuspaatds, lohko 409) ja voidaan siirtya varsinaiseen puheentun- 
nistukseen, jossa pyritaan selvittamaan se, mita kayttaja lausui. Jos sen 
sijaan alikaistojen lukumaara on pienempi kuin ilmaisumaara 
SB_SUFF_TH, tutkitaan, onko alikaistojen, joissa on tauko, maara suu- 
rempi tai yhtasuuri kuin alikaistojen minimimaara SB_MIN_TH (lohko 
410). Lohkossa 411 tutkitaan viela, onko jokin alikaista aktiivinen 
(taukolaskuri oli suurempi tai yhtasuuri kuin aktiivisuuskynnys 
SB_ACTIVE_TH, mutta pienempi kuin ilmaisuaikaraja END). Keksinnon 
mukaisessa menetelmassa tehdaan tassa tilanteessa paatos siita, etta 
puheessa on tauko, jos mikaan alikaista ei ole aktiivinen. 

Kohinatilanteessa voi joillakin alikaistoilla kohina vaikuttaa siten, etta 
ilmaisupaatosta ei saada kaikilla alikaistoilla, vaikka puheessa olisi 
tauko, joka tulisi ilmaista. Talloin mainitun alikaistojen minimimaaran 
SB_MIN_TH avulla voidaan puheessa olevan tauon ilmaisua varmen- 
taa erityisesti kohinaisissa olosuhteissa. Talloin kohinatilanteessa, mi- 
kali tauko havaitaan vahintaan mainitulla minimimaaralla SB_MIN_TH 
alikaistoja, todetaan puheessa oleva tauko, jos tauon havaitsemispaa- 
tos nailla alikaistoilla pysyy voimassa mainitun ilmaisuaikarajan END 
verran. 

Vastaavasti hyvissa olosuhteissa mainitun ilmaisuaikarajan END kayt- 
tamisella voidaan estaa liian nopea tauon ilmaisupaatos. Hyvissa olo- 
suhteissa voi mainitulla minimimaaralla alikaistoja tauon ilmaisupaatos 
tulla hyvinkin nopeasti, vaikka puheessa ei olisi sellaista taukoa, joka 
tulisi ilmaista. Odottamalla olennaisesti kaikkien alikanavien osalta il- 
maisuaikarajan verran varmennetaan sita, etta puheessa todella on 
tauko. 



Keksinnon eraassa toisessa edullisessa suoritusmuodossa ei ennen 
tauon tunnistuspaatoksen tekemista tutkita sitfi. onko jokin alikaista ak- 
tiivinen. Talloin tauon tunnistuspaatos tehdaan edella esitettyjen vertai- 
lujen tuloksfen perusteella. 

Edella esitetyt toiminnot voidaan edullisesti toteuttaa esimerkiksi pu- 
heentunnistuslaitteen kontrolierin tai digitaalisen signaalinkasittely-yksi- 
kdn sovellusohjelmistossa. 

Edella esitettya keksinnon edullisen suoritusmuodon mukaista mene- 
telmaa puheessa olevan tauon ilmaisemiseksi voidaan soveltaa pu- 
heentunnistuslaitteen opetusvaiheessa seka puheentunnistusvaihees- 
sa. Opetusvaiheessa voidaan hairioolosuhteet pitaa tavallisesti suh- 
teellisen vakioina. Sen sijaan kaytettaessa puheella ohjattavaa laitetta 
voi taustamelun ja muiden hairioiden maara vaihdella huomattavasti 
Puheentunnistuksen luotettavuuden parantamiseksi erityisesti vaihte- 
levissa olosuhteissa on keksinnon eraan toisen edullisen suoritusmuo- 
don mukaiseen menetelmaan iisatty adaptiivisuutta kynnysarvon thr 
laskentaan. Taman adaptiivisuuden aikaansaamiseksi kaytetaan muu- 
toskerrointa UPDATE_C, jonka arvo on edullisesti suurempi kuin nolla 
ja pienempi kuin yksi. Muutoskertoimelle maaritetaan aluksi jokin alku- 
arvo mainitulta arvoalueelta. Tata muutoskerrointa paivitetaan puheen- 
tunnistuksen aikana edullisesti seuraavasti. Alikaistoista puskureihin 
tallennettujen naytteiden perusteella lasketaan suurin tehotaso 
wm_max ja pienin tehotaso win_min. Taman jalkeen suoritetaan maini- 
tun lasketun suurimman tehotason win_max vertailu sen hetkiseen te- 
homaksimiin p_max ja mainitun lasketun pienimman tehotason win_min 
vertailu tehominimiin p_min. Jos lasketun suurimman tehotason 
win_max ja tehomaksimin p^max valisen eron itseisarvo tai tehomini- 
min p_min ja mainitun lasketun pienimman tehotason win_min valisen 
eron itseisarvo on kasvanut edellisesta laskentakerrasta, kasvatetaan 
muutoskerrointa UPDATE_C. Vastaavasti jos lasketun suurimman te- 
hotason win_max ja tehomaksimin p_max valisen eron itseisarvo tai 
tehominimin p_min ja mainitun lasketun pienimman tehotason win.min 
valisen eron itseisarvo on pienentynyt edellisesta laskentakerrasta, pie- 
nennetaan muutoskerrointa UPDATE_C. Taman jalkeen lasketaan uusi 
tehomaksimi ja tehominimi seuraavasti: 
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p_rain(t) = (l-UPDATE_C)p_min(l-l) + (UPDATE_Cwin_min) 
p^max(t) = (1 - UPDATE. C) p_max(t-1) + (UPDATE. C win_ max) 



Laskettuja uusia tehomaksimi- ja tehominimiarvoja kaytetaan seuraa- 
5 valla naytteenottokierroksella mm. funktion f() suorituksen yhteydessa. 
Taman adaptiivisen kertoimen maarityksen etuna on mm. se, etta ym- 
paristoolosuhteissa tapahtuvat muutokset voidaan paremmin huomioi- 
da puheentunnistuksessa ja tauon ilmaisu saadaan luotettavammaksi. 

10 Edella esitetyt eri toiminnot puheessa olevan tauon ilmaisemiseksi voi- 
daan suurelta osin toteuttaa puheentunnistuslaitteen kontrollerin ja/tai 
digitaalisen signaalinkasittelylaitteen sovellusohjelmistossa. Keksinnon 
mukaisessa puheentunnistuslaitteessa voidaan osa toiminnoista, kuten 
alikaistoihin jako toteuttaa myos analogiatekniikalla, kuten on sinansa 

15 tunnettua. Menetelman suorituksen yhteydessa voidaan eri vaiheissa 
muodostettavien laskentatulosten, muuttujien jne. tallennuksessa kayt- 
taa puheentunnistuslaitteen muistivalineita 14, edullisesti luku/kirjoitus- 
muistia (RAM, Random Access Memory), haihtumatonta, uudelleen 
kirjoitettavissa olevaa lukumuistia- (NVRAM, Non-Volatile RAM), 

20 FLASH-muistia jne. Myos langattoman viestimen muistivalineita 22 voi- 
daan kayttaa tietojen tallennuksessa. 

Kuvassa 2 keksinnon edullisen suoritusmuodon mukaisesta langatto- 
masta viestimesta MS on esitetty viela sinansa tunnetut nappaimisto 
25 17, nayttolaite 18, digitaali/analogiamuunnin 19, kuulokevahvistin 20a, 
kuuloke 21a, kaiutintoiminnon 2 kuulokevahvistin 20b, kuuloke 21b 
seka suurtaajuuslohko 23. 

Nyt esilla olevaa keksintoa voidaan soveltaa useiden eri periaatteella 
30 toimivien puheentunnistusjarjestelmien yhteydessa. Keksinto parantaa 
puheessa olevien taukokohtien ilmaisuvarmuutta, mika varmentaa var- 
sinaisen puheentunnistuksen tunnistusvarmuutta. Keksinnon mukaista 
menetelmaa kaytettaessa ei puheentunnistusta ole tarve suorittaa kiin- 
teaan aikaikkunaan sidottuna, joten tunnistusviive ei olennaisesti riipu 
35 siita, kuinka nopeasti kayttaja lausuu puhekomentoja. Myos taustame- 
lun vaikutus puheentunnistukseen saadaan keksinnon mukaista mene- 
telmaa sovellettaessa pienemmaksi kuin tunnetun tekniikan mukaisissa 
puheentunnistuslaitteissa on mahdollista. 
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On selvaa, etta keksintoa ei ole rajoitettu ainoastaan edella esitettyihin 
suoritusmuotoihin, vaan sita voidaan muunnella oheisten patenttivaati- 
musten puitteissa. 
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Patenttivaatimukset: \ 

1 Menetelma puheentunnistuksessa puheessa olevien taukojen ilmai- 
semiseksi, jossa menetelmassa kayttajan lausumien puhekomentojen 
tunnistamiseksi aani muunnetaan sahkoiseksi signaaliksi, tunnettu 
siita. etta menetelmassa sahkoisen signaalin taajuusspektn jaetaan 
kahdeksi tai useammaksi alikaistaksi, tallennetaan alikaistojen signaa- 
leista naytteita valiajoin, maaritetaan alikaistojen energiatasot tallennet- 
tujen naytteiden perusteella, maaritetaan tenon kynnysarvo (thr), ja ver- 
rataan alikaistojen energiatasoja mainittuun tehon kynnysarvoon (thr), 
jolloin vertailutuloksia kaytetaan tauon ilmaisutuloksen muodostuk- 



sessa. 



2 Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, etta 
maaritetaan ilmaisuaikaraja (END) ja ilmaisumaara (SB_SUFF_TH), 
jolloin menetelmassa alikanavan tauon pituuden laskenta aloitetaan 
alikaistan energiatason alittaessa jnainitun tehon kynnysarvon (thr), 
jolloin menetelmassa muodostetaan alikanavakohtainen ilmaisu las- 
kennan saavuttaessa ilmaisuaikarajani(END), tutkitaan, kuinka monel- 
la alikaistalla energiataso on ollut tehon kynnysarvon (thr) alapuolella 
pidempaan kuin ilmaisuaikaraja (END), jolloin tauon ilmaisupaatos teh- 
daan, jos alikanavakohtaisten ilmaisujen lukumaara on suurempi tai 
yhta suuri kuin ilmaisumaara (SB_SUFF_TH). 

3 Patenttivaatimuksen 2 mukainen menetelma, tunnettu siita, etta 
menetelmassa lisaksi maaritetaan aktiivisuusaikaraja 
(SB_ACTIVE_TH) ja aktiivisuusmaara (SB_MIN_TH), jolloin tauon il- 
maisupaatos tehdaan, jos alikanavakohtaisten ilmaisujen lukumaara on 
suurempi tai yhtasuuri kuin aktiivisuusmaara (SBJMIN_TH), ja muilla 
alikanavilla alikanavan tauon pituuden laskennassa ei ole saavutettu 
aktiivisuusaikarajaa (SB_ACTIVE_TH). 

4. Patenttivaatimuksen 1 , 2 tai 3 mukainenmenetelma, tunnettu siita, 
etta tehon kynnysarvo (thr) lasketaan kaavalla 



thr = p_min + k ■ (p_max - p_ min) , jossa 
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p_min= alikanavien tallennetulsta nayttelsta maarltetty plenin 
tehomaksimi, ja 

pjnax= alikanavien tallennetuista naytteista maaritetty suurm 
tehominimi. 

5 

5. Jonkin patenttivaatimuksen 1—4 mukainen menetelma, tunnettu 
siita, etta mainittu tehon kynnysarvo (thr) lasketaan adaptiivisesti huo- 
mioimalla kulloinenkin ympariston hairioaanitaso. 

10 6. Patenttivaatimuksen 5 mukainen menetelma. tunnettu siita, etta 
mainitun tehon kynnysarvon (thr) laskemiseksi valiajoin (t) maaritetaan 
muutoskerroin (UPDATE_C), ja tallennettujen naytteiden perusteella 
lasketaan alikaistojen suurin tehotaso (win^max) ja pienin tehotaso 
(winjnin), jolloin maaritetaan tehomaksimi (p_max) ja tehominimi 

15 (p_min) kaavoilla: 

p_max(i,t) - (]-UPDATE_C)-p_iw(iit-l) + (XJPDATE_C-win_nua) 
p_min(i't) = (l-UPDATE_C)p_min(i,t-l) + (lJPDATE_Cwm_min) 

20 jossa 0<UPDATE_C<1, 
0 < i < L, ja 

L on alikaistojen lukumaara 

7. Patenttivaatimuksen 6 mukainen menetelma, tunnettu siita, etta 

25 menetelmassa lisaksi: 

kasvatetaan muutoskerrointa (UPDATE_C), mikali mainitun las- 
ketun suurimman tehotason (win_max) ja tehomaksimin (p_max) 
valisen eron itseisarvo tai tehominimin (p_min) ja mainitun laske- 
tun pienimman tehotason (winimin) valisen eron itseisarvo on 

30 kasvanut, 

pienennetaan muutoskerrointa'; (UPDATE_C), mikali mainitun 
lasketun suurimman tehotasdn (win_max) ja tehomaksimin 
(p_max) valisen eron itseisarvo jtai tehominimin (p_min) ja maini- 
tun lasketun pienimman tehotason(win_min) valisen eron itseis- 

35 arvo on pienentynyt. j 
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8. Puheentunnistuslaite (16), joka kasittaa valineet (1a, 1b) kayttajan 
lausumien puhekomentojen muuntamiseksi sahkoiseksi signaaliksi, 
tunnettu siita, etta se kasittaa lisaksi: 
valineet (8) sahkoisen signaalin 



30 



taajuusspektrin jakamiseksi kah- 



35 



deksi tai useammaksi alikaistaksi, 
valineet (14) naytteiden tallentdmiseksi valiajoin alikaistojen sig- 

naaleista, j 

valineet (5, 13) energiatasojen I maarittamiseksi aiikaistoista tal- 
lennettujen naytteiden perusteeila, 
10 - valineet (5, 13) tenon kynnysarvjon (thr) maarittamiseksi, 

valineet (5, 13) alikaistojen eneiigiatasojen vertailemiseksi mainit- 
tuun tehon kynnysarvoon (thr), ja 

valineet (5, 13) puheessa olevan tauon ilmaisemiseksi mainittu- 
jen vertailutulosten perusteeila. i 

i 

I 

9. Patenttivaatimuksen 8 mukairien puheentunnistuslaite (16), 
tunnettu siita, etta tehon kynnysarvo <jthr) on laskettu kaavalla 



thr^ p_min + k (p„max- p_min), 



p_min = 



p_max = 



alikanavien tallennetuista 
tehomaksimi, ja i 



alikanavien 
tehominimi. 



tallennetuista 



naytteista 
naytteista 



maaritetty pienin 
maaritetty suurin 



10, Patenttivaatimuksen 8 tai 9 mukkinen puheentunnistuslaite (16), 
tunnettu siita, etta se kasittaa lisaksi jvalineet (10. 11) alikaistojen sig- 
naalien suodattamiseksi ennen tallennysta. 

i 
I 

11. Langaton viestin (MS), joka kasittaa valineet (16) puheen tunnista- 
miseksi, ja valineet (1a, 1b) kayttajjan lausumien puhekomentojen 
muuntamiseksi sahkoiseksi signaaliksi, tunnettu siita, etta valineet 
(16) puheen tunnistamiseksi kasittaa libaksi: 

valineet (8) sahkoisen signaalin] taajuusspektrin jakamiseksi kah- 
deksi tai useammaksi alikaistaksi, 

valineet (14) naytteiden tallentajmiseksi valiajoin alikaistojen sig- 
naaleista, | 
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valineet (5, 13) energiatasojen maarittamiseksi alikaistoista tal- 
lennettujen naytteiden perusteella, 
valineet (5, 13) tehon kynnysarvon (thr) maarittamiseksi, 
valineet (5, 13) allkaistojen energiatasojen vertailemiseksi mainit- 
5 tuun tehon kynnysarvoon (thr), ja 

valineet (5, 13) puheessa olevan tauon ilmaisemiseksi mainittu- 
jen vertailutulosten perusteella. 
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(S7) Tiivistelma 

Menetelmassa puheessa olevien taukojen ilmaisemi- 
seksi kayttajan lausumien puhekomentojen tunnistamista 
varten aani muunnetaan sahkoiseksi signaaliksi, jonka 
taajuusspektri jaetaan kahdeksi tai useammaksi alikais- 
taksi. Alikaistojen signaaleista tallennetaan naytteita va- 
liajoin, maaritetaan alikaistojen energiatasot tallennettu- 
jen naytteiden perusteella, maaritetaan tenon kynnys- 
arvo (thr), ja verrataan alikaistojen energiatasoja mainit- 
tuun tehon kynnysarvoon (thr). Vertailutuloksia kayte- 
taan tauon ilmaisutuloksen muodostuksessa. 



Fig.1 
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Mel-spektrin muodostus 
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Alipaastosuodatus 



Logaritmin laskenta 



Sijalukusuodatus 



Paatosalgoritmi 



Fig 1 
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Tauon ilmaisu 
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Fig 4 



